首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • Scaling Law 的新边界】

    Scaling Law 的新边界探索 Scaling Law 描述了模型性能与计算资源、数据规模和模型参数之间的幂律关系。 案例分析:跨模态任务的 Scaling Law 跨模态任务(如图文生成、视频理解)中,Scaling Law 的表现与传统单模态任务不同。 代码实现:计算 Scaling Law 系数 以下 Python 代码演示如何通过拟合实验数据计算 Scaling Law 系数: import numpy as np from scipy.optimize # b 即为关键的 scaling exponent print(f"Scaling exponent: {b:.4f}") 稀疏化模型的 Scaling Law 当采用 MoE(混合专家)架构时 ,Scaling Law 需考虑激活参数占比。

    14610编辑于 2026-01-20
  • 来自专栏Listenlii的生物信息笔记

    Scaling law的争论~

    另外,scaling law所用的最高丰度物种的丰富度(Nmax)和N都在预测的范围之内,因此该方法并不属于外推。 第三,Amy Willis质疑了scaling law的预测能力。 一篇评论也提到了scaling laws的方法 ? Scaling law的研究使用了丰度的对数正态分布。 丰度的对数正态分布的一个解释是它们来自随机的计数过程。然而这个过程不足以完全解释对数正态分布的出现。

    1.3K31发布于 2020-06-01
  • 来自专栏人工智能

    人工智能领域的 Scaling Law 详解

    Scaling Law 的定义与发展Scaling law 描述的是在深度学习系统中,模型性能(如损失函数值)随着资源(如模型参数、训练数据量、计算力等)扩展而呈现的趋势。 Scaling Law 的基础公式Scaling law 通常用数学公式描述深度学习模型的损失值与模型参数、数据集规模、计算资源之间的关系。 Scaling Law 的具体应用为了更好理解 scaling law,我们来看一些实际案例。一个典型的应用是 OpenAI 在训练 GPT-3 时所使用的扩展策略。 最新的研究与未来方向近年来,Scaling law 的研究逐步延伸至不同的 AI 模型和任务中,不再局限于语言模型。例如,在图像识别领域,研究人员也发现了类似的 Scaling law 现象。 未来,Scaling law 的研究可能会更多地关注如何通过新型的训练方法来打破扩展瓶颈。

    1.9K10编辑于 2025-05-03
  • 来自专栏秋枫学习笔记

    Meta | Wukong:推荐系统中的Scaling Law探索

    标题:Wukong: Towards a Scaling Law for Large-Scale Recommendation 地址:https://arxiv.org/pdf/2403.02545.pdf 公司:meta 1.导读 Scaling laws在nlp,cv领域的模型改进方面起着重要作用,但是目前推荐模型并没有表现出类似于在大型语言模型领域观察到的规律,本文在模型本身结构上做出调整,提出了一种基于堆叠的因子分解机 2.6 scaling Wukong 通过调整超参数,可以放大整个模型,主要可以调节的是: l : l 越大,特征交互的阶数越高 n_F, n_L : 控制两个模块产生的emb数 k :控制压缩幅度

    2.2K10编辑于 2024-03-18
  • 来自专栏小七的各种胡思乱想

    LLM推理scaling Law

    OpenAI的O-1出现前,其实就有已经有大佬开始分析后面OpenAI的技术路线,其中一个方向就是从Pretrain-scaling,Post-Train-scaling向Inference Scaling 的转变,这一章我们挑3篇inference-scaling相关的论文来聊聊,前两篇分别从聚合策略和搜索策略来优化广度推理,最后一篇全面的分析了各类广度深度推理策略的最优使用方案。 Towards the Scaling Properties of Compound AI Systems第一篇论文的出发点比较简单,简单说就是论证Inference Ensemble是否有效,既让模型多次回答同一个问题 全面分析:Test Time ScalingScaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model

    87721编辑于 2024-10-10
  • 来自专栏机器之心

    Scaling Law 又一次性感了吗?

    专题解读 事件: Sora 的出现被认为是 Scaling Law 的又一次成功,这也引起了社区中更多对 Scaling Law 的讨论。 这让 Scaling Law 再次成为人工智能领域的热点话题。 Scaling Law 是什么? Scaling Law 带来的争议有哪些? 围绕 Scaling Law 的讨论中,「模型是否越大越好?」的问题在近几年反复被提及,各方观点莫衷一是。 Scaling Law 是什么?Scaling Law 都有哪些争议?都有谁相信 Scaling Law?为什么 OpenAI 能用好 Scaling Law?... Scaling Law 又一次性感了吗? Scaling Law 是什么?Scaling Law 都有哪些争议?都有谁相信 Scaling Law

    53010编辑于 2024-04-12
  • 来自专栏新智元

    Ilya警告、LeCun冷嘲、奥特曼沉默:Scaling Law时代还能走多远?

    他就是Scaling Law,但是令所有人焦虑的是:这个幽灵是否将要,还是已经「撞墙」了?! Scaling Law是否已经失效? 大佬们的看法出现了前所未有的分歧。 Yann LeCun则一如既往地毒舌,认为当前的大语言模型无论怎么Scaling都无法触达真正的AGI。

    33010编辑于 2025-12-31
  • 来自专栏NewBeeNLP

    Meta关于深度学习推荐系统的Scaling Law的研究

    今天看看 Meta 关于深度学习推荐系统 Scaling Law 的研究。 零、论文信息 论文题目:Wukong: Towards a Scaling Law for Large-Scale Recommendation 论文链接:https://arxiv.org/abs/2403.02545 本文整体贡献: 提出了一个新的特征交叉结构,名为Wukong,在离线数据集上取得了最好结果 汇报了推荐系统中的Scale Law, 在计算复杂度上,Wokong模型维持了大约两个数量级的增长稳定性,训练计算量翻两番 指的指出的是,Meta最近有不同的组在一个生成式推荐模型上也汇报了Scale Law这个现象,具体参看如下提问: 如何评价Meta最新的推荐算法论文:统一的生成式推荐第一次打败了分层架构的深度推荐系统? (感觉大部分与特征交叉还有最后MLP相关的都是比较有效果的) 附录:胡言乱语 Scale Law还是展示的比较清晰的,通过加大对特征交互的计算成本投入,可以获得性能提升也很符合直觉,有一点小遗憾是没有涉及序列建模的部分

    1.1K10编辑于 2024-07-12
  • 来自专栏深度学习与python

    探索 Scaling Law 的边界与 AI 芯片的新竞争格局

    主持人:大模型预训练阶段的 Scaling Law 还可以持续吗?算力的突破是否可以带来新的 Scaling Law? 曾奥涵: 这个问题有两个方面,一是预训练阶段的 Scaling Law 是否能够持续,二是是否有突破能带来新的 Scaling Law。 这两者的结合推动了 Scaling Law 的持续,可能跨越 2 到 3 个数量级,甚至达到 5 到 6 个数量级。 然而,预训练阶段的 Scaling Law 是否能持续呢? 未来的 Scaling Law 是否需要考虑更多的资源优化策略? 那么,是否可以认为我们的 AI 模型架构正在推动我们当前的 Scaling Law 呢?

    38210编辑于 2025-02-06
  • 来自专栏腾讯云TVP

    Does the New Reasoning Paradigm (Query+CoT+Answer) Support a New Scaling Law?

    Lu points out: The term "Scaling Law" is becoming overloaded. Why does the scaling law remain effective from hundreds of billions to trillions of tokens? Laws: the reinforcement learning Scaling Law (RL Scaling Law) for post-training, and the Inference Scaling Law (also called Test Time Scaling Law).This raises a crucial question: Are there really three S-curves law 吗?

    27400编辑于 2025-02-14
  • 来自专栏机器之心

    原来Scaling Law还能被优化?Meta这招省token又提效

    尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后,AI 领域的发展更是进入了快车道。 更重要的是,它的表现甚至足以改变 Scaling Law 中的系数。Meta 也用 Triton 实现了这种注意力机制。 此外,他们的实验还表明,2-simplicial Transformer 相对于 Transformer 具有更有利的参数数量 scaling 指数。 神经 Scaling Law 概述 要理解这项研究的意义,首先需要了解一下 Scaling Law。 可以看到,与点积注意力 Transformer 相比,2-simplicial 注意力具有更陡的斜率 α,即其 Scaling Law 的指数更高。 © THE END  转载请联系本公众号获得授权

    24410编辑于 2025-07-08
  • 来自专栏不二小段

    Scaling Law 已死,Data Law 当立!Datology AI 如何用「数据策展」让大模型训练提速 7.7 倍

    然而,最近一段时间新出的模型能力增长逐渐放缓,简单粗暴地堆砌算力和数据带来的边际效益不断递减,很多人开始怀疑大模型的规模定律(Scale law)是否已经失效。 我们真的撞上数据墙了吗?

    9100编辑于 2026-04-09
  • 来自专栏机器之心

    GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式

    此外,对于视觉生成领域是否存在「Scaling Law 缩放定律」仍未知,即测试集损失是否随模型或训练开销增长而呈现出可预测的幂律 (Power-law) 下降趋势仍待探索。 GPT 形式自回归模型的强大能力与 Scaling Law,在图像生成领域,似乎被「锁」住了: 自回归模型在生成效果榜单上落后于一众 Diffusion 模型 剑指「解锁」自回归模型的能力和 Scaling Scaling Law 实验 Scaling law 可谓是大语言模型的「皇冠明珠」。 Scaling law 不仅使根据小模型预测大模型性能成为可能,节省了计算开销和资源分配,也体现出自回归 AR 模型强大的学习能力,测试集性能随着 N、T、Cmin 增长。 通过实验,研究者观察到了 VAR 展现出与 LLM 几乎完全一致的幂律 Scaling Law:研究者训练了 12 种大小的模型,缩放模型参数量从 1800 万到 20 亿,总计算量横跨 6 个数量级,

    44610编辑于 2024-04-13
  • 来自专栏新智元

    Ilya认错,Scaling Law崩了?自曝SSI秘密技术路线取代OpenAI

    但在SSI的最近一轮融资中,Ilya开始希望尝试一种与OpenAI不同的Scaling方法。 Scaling Law大家都说得够多了。 左图是OpenAI发现的Scaling Law,意味着在模型上投入更多训练时间(GPU周期)时,我们可以获得更好的结果。 右图则暗示了我们尚未触及的一套全新的Scaling Law。 他们不可能不注意到最近圈内盛传的Scaling Law碰壁事件,而重新考虑自己的昂贵投资是否会打水漂。 「我们现在发现了第二个Scaling Law,这是在推理阶段的Scaling Law……所有这些因素导致对Blackwell的需求非常高。」 随着一种Scaling Law的消退,另一种定律取而代之 让我们回到GPT发展放缓这个问题上。

    31910编辑于 2025-02-14
  • 来自专栏新智元

    谷歌重磅推出全新Scaling Law,抢救Transformer!3万亿美元AI面临岔路

    编辑:编辑部 NJY 【新智元导读】谷歌团队发现了全新Scaling Law!新方法DiLoCo被证明更好、更快、更强,可在多个数据中心训练越来越大的LLM。 这个核心算法,便是——DiLoCo的Scaling Law。 新的训练方法无惧模型规模,未来,在「多个数据中心」训练大模型的规模不再是问题。 这正是研究scaling laws的目的! 这次研究从零开始构建了DiLoCo和数据并行训练的Scaling law,用于预测它们在大规模模型上的表现对比。 其中包括Scaling law本身,以及甚至提供了预测最优超参数的方法。 毕竟,过去的预训练Scaling Law已进入尾声,而新的AI Scaling Law与训练无关。

    34300编辑于 2025-03-17
  • 来自专栏deepseek

    DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?

    ——关于Scaling Law的一些思考老友张俊林《从Deepseek R1看Scaling Law的未来》一文,引起老友热议。 张俊林指出:OpenAI o1推出后,另外两个阶段不再孤单,也各自拥有了姓名,产生了各自的Scaling Law,对应后训练阶段的强化学习Scaling Law(RL Scaling Law)和在线推理阶段的 Inference Scaling Law(也叫Test Time Scaling Law)。 直觉上,推理模型的增长曲线与此前的预训练 scaling law 的增长曲线,大概率没有直接的可比性。Scaling law 说的 law,实际上我们都知道是所谓经验“法则”。 目前的证据表明,预训练scaling law确实展现了相当的持续性,但推理模型的scaling law可能会较快遇到现实约束。

    42610编辑于 2025-02-14
  • 来自专栏新智元

    苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

    此外,Scaling Law研究表明,随着计算预算的增加,早融合和后融合的计算最优模型性能相似(图1-左)。 原生多模态模型(NMM)Scaling Law与LLM相似:原生多模态模型的扩展规律与纯文本LLM相似,扩展指数因目标数据类型和训练混合比例略有变化。 原生多模态Scaling Law 为深入了解原生多模态模型的性能表现,研究人员引入了Scaling Law的概念。 早融合和后融合模型的Scaling Law。 图2(左)呈现了早融合的NMM在多模态交织、图像-描述以及文本这三类数据集上的平均最终损失。 不同数据混合的Scaling Law 图4表明不同的数据混合方式在模型训练中呈现出相似的缩放趋势,不过它们的缩放系数存在差异(表4)。

    40210编辑于 2025-05-06
  • 来自专栏深度学习与python

    Scaling Law 仍然成立,企业搜广推怎么做才能少踩“坑”?

    颜林:在推荐 / 广告场景下,如何看待 scaling law? 冯晓东: 推荐领域的模型同样具备 scaling law,而且我认为其边际效益远未触及上限,尚未像大语言模型那样出现明显的边际递减。 王皓: 第一个问题是:推荐领域的 scaling law 应该如何定义?它是否等同于语言模型中的 scaling law? 说明推荐领域是可以研究通用 scaling law 的,而非完全碎片化。 第二个问题是:既然 scaling law 可以拟合,我们是否已经接近它的上限?推荐模型到底需要多大规模? 我的看法是:推荐模型规模普遍还不够大,还远未到达 scaling law 的极限。 张泽华: 在推荐与广告场景中,我们距离 scaling law 的天花板还非常遥远。

    42410编辑于 2025-12-24
  • 来自专栏机器之心

    大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

    那么,Scaling Law 能不能用于预测下游任务性能?这个关键问题很大程度上仍未得到解答。在最近的一项工作中,斯坦福大学和谷歌的研究者探索了迁移学习的 Scaling Law。 用于迁移学习的 Scaling Law 适用于 BLEU 得分的 Scaling Law 与遵循幂律缩放行为的交叉熵和困惑度不同,研究者发现 BLEU 得分更接近于对数律(log-law),这从图 1、 迁移学习中的 Scaling Law 何时失效? 虽然交叉熵损失总是遵循一个单调递减的趋势,这可以通过公式 (2) 中的 Scaling Law 来获得。 如果 BLEU 得分具有非单调表现,就无法拟合 Scaling Law。 注意,在英 - 德或英 - 罗翻译任务中,这种 Scaling Law 的断裂并未发生,因为 Scaling Law 很好地适应了预训练数据,这些任务的预测误差最多为 0.025(δ = 0.1))。

    67310编辑于 2024-02-28
  • 来自专栏新智元

    自主通用科学家,科研界的Scaling Law来了

    、罗格斯大学、哈佛大学、佐治亚理工学院和伦敦大学学院等国际顶尖研究机构的科学家们发表了一篇前瞻性论文,深入探讨了AI与机器人科学家如何颠覆传统科学研究的范式,并首次提出科学发现可能遵循全新的扩展定律(Scaling Law)。

    54210编辑于 2025-05-05
领券